УЧЕТ ИНТЕГРАЛЬНЫХ ОГРАНИЧЕНИЙ В УСЛОВИЯХ ОПТИМАЛЬНОСТИ
Условия оптимальности (2.21) и (2.30) получены в предположении, что управление u(t) определено в замкнутой области Uy т. е. не превосходит, например, в каждый момент времени определенной величины.
В задаче, рассмотренной в 2.1, существенную роль играют также интегральные или изопериметрические ограничения, которые представляются в виде неравенств:
или
где см и с известные постоянные величины, вектор X удовлетворяет системе уравнений (2.2), скалярные функции /п+2 знакоопределены, непрерывны и дважды дифференцируемы по переменным х, и, t в области их определения. Операция математического ожидания в (2.38) берется по начальным значениям фазовых координат х°, случайным возмущениям и ошибкам измерений.
Если обозначить
•^л+2 — /Л+2(-*. Я* 0? -*71+2 (^о) — (2.40)
где хп+2 компонента расширенного вектора фазовых ко
ординат х, то неравенства (2.38) и (2.39) можно записать в компактном виде
M[xn+2(iB)]KcK; (2.41)
xn+i(tB)<c — (2.42)
Различие между ограничениями (2.41) и (2.42) состоит в том, что второе из них должно выполняться для каждой реализации случайных начальных условий и возмущений, а первое ограничивает значение фазовой координаты только в среднем и может нарушаться в определенных реализациях. Поэтому условие (2.42), эквивалентное ограничению в детерминированных задачах, является более жестким, чем ограничение (2.41), и не может быть выполнено, в частности, при неограниченном законе распределения хп+2 Для конечной константы с. Для учета ограничений (2.41) и (2.42) в условиях оптимальности (2.30) используем метод перехода от замкнутой области изменения значения координаты хп+2 (^в) > определяемой неравенствами, к открытой области изменения координаты [19].
Для ограничения (2.42) это может быть осуществлено с помощью функции Хм координаты xn+i(tB) такой, что
если М[хп+2((в)]>См
при изменении х’п+2 в открытой области.
Используя далее метод множителей Лагранжа и учитывая, что вариация
Ш Ч+8(0. (2- 44)
0Хп+2
получим аналогично детерминированному случаю [19], что постоянный множитель Лагранжа я|)п+2 должен удовлетворять условию
4W. ^1уЯ+’2-=0- (2.45)
0Хп+г
С учетом дополнительного уравнения (2.40), определяющего компоненту хп+2 вектора фазовых координат, функция Гамильтона (2.28) запишется в виде
Н(х, ф, и, *)=фг/(*> и, V, 0+Ч>л+«/«+і(*, и. *),
а условие оптимальности (2.30) определится уравнением
т. е. когда условие (2.41) выполняется при строгом неравенстве (2.43) множитель фп+2 в (2.45) должен быть равен нулю и условия оптимальности (2.47) совпадают с (2.30). Поэтому ограничение (2.41) не влияет на вид условий оптимальности, если при оптимальном управлении не нарушается неравенство (2.41). Если же
=0, то фп+2, как следует из (2.45), является не-
дхп+2
определенной величиной, в общем случае отличной от нуля. При этом условия оптимальности управления u(t) изменяются и принимают вид (2.47), что является следствием нарушения ограничения (2.41) согласно определению функции хм [см. условия (2.43)]. Таким образом, ограничение в виде неравенства (2.41) может не учитываться при оптимизации, если при оптимальном управлении, найденном без учета (2.41), оно не нарушается. В противном случае оптимальная задача должна быть решена снова с учетом множителя Лагранжа фп+2- Заметим, что при
Действительно, поскольку при фп+2>0 слагаемое в (2.46)
tyn+if
в (2.46) и максимум функции (2.47) будет достигнут при максимальных значениях u(t), т. е. лежащих на границе области U при каждом значении t. Так как условие (2.41) имеет смысл только, если оно не выполняется при граничных значениях управления (в противном случае оно не может быть нарушено), неравенство в (2.41) не может быть обеспече’но При фп+2>0-
Неравенство (2.39) или (2.42), ограничивающее область значений интеграла от фазовых координат и управляющего воздействия для каждой реализации начальных условий и возмущений, может быть учтено при оптимизации управления и (і) аналогично (2.38).
Предположим, что для каждой реализации аргументов функция fn+2 ограничена и существует случайное число фп+2 (множитель Лагранжа) в законе управления, выбором которого можно обеспечить выполнение (2.42). При этом фп+2 является функционалом от |(t), n(t) и случайных начальных условий х°.
Аналогично предыдущему может быть введена такая функция х случайной координаты •Са (У. что
W*.)=X K+t(0] (2.51)
И
д. Х при *я+2 (*„)<£,
дхп+2
а также
xK+a(0]=*j-3————— 0, (2.52)
0хп+2
если х„+2(^в)^с. При этом решение задачи выбора управления определяется в каждой конкретной реализации условием
Из (2.53) следует, что в зависимости от реализации 1(0, я(0> х° задачу надо решать либо без учета ограничения (2.42), если
либо с учетом (2.42) со знаком равенства, если
K-nL _о.
дх’п+2
При этом оптимальное управление u(t) определяется из условия максимума математического ожидания функции Н (2.47), где фп+2 является функционалом случайного вектора фазовых координат и управления.
Для решения задачи существенно, что фп+2 является постоянной, величиной. Поэтому вид функциональной зависимости от параметров управления не меняется во времени и может быть определен на всем интервале (t0, tb), если он известен, по крайней мере, в один момент времени.
Такая возможность имеется, если координаты и управление, входящие в функцию /п+2ІХ, и, і), измеряются точно (известны) в процессе управления. При этом в последний момент получения информации г (tn) левая часть (2.39) известна и фп+2 не является случайной по отношению к условному математическому ожиданию при заданных значениях реализации вектора г на интервале {to, ^п) •
В момент tn оптимальное управление определяется из условия
max М (ФT{tn)f{x{tn и (*,), *„)+
И(/Л)6У
+Фл+а/л+а(л;(^л)» в(4)» ^л)| О=0’ (2.54)
Ро/
где фп+2 может быть вынесен а за знак математического ожидания. Определенное из (2.54) u{tn) является функцией фп+2- Подставляя u(tn) в соотношение (2.39), выразим ф„+2 через прошлые значения фазовых координат управления и измеряемого вектора г. При оптимизации в Другие моменты Времени U<t<tn фп+2 является уже известным функционалом от параметров управления. При этом успех решения задачи определяется возможностью нахождения условного математического ожидания от функции Н.
Очевидно, если в функцию /п+2 в соотношение (2.39) входят составляющие вектора фазовых координат, которые в процессе управления измеряются с ошибками, условие (2.39) может быть удовлетворено лишь в вероятно
стном смысле. Например, можно потребовать, чтобы вероятность
Рхп+ 2^в) С ^ 1 ®*.
где е>0 — малая величина. При этом условие (2.39) сводится к условию (2.38).
Таким образом, при интегральных (изопериметриче — ских) ограничениях типа неравенства в статистических задачах изменяется вид Гамильтониана Н аналогично детерминированному случаю [6].